我们专注于在黑框设置中对模型的对抗性攻击的问题,攻击者旨在制作对受害者模型的查询访问有限的对抗性示例。现有的黑框攻击主要基于贪婪的算法,使用预先计算的关键位置来扰动,从而严重限制了搜索空间,并可能导致次优的解决方案。为此,我们提出了使用贝叶斯优化的查询有效的黑盒攻击,该贝叶斯优化使用自动相关性确定(ARD)分类内核动态计算重要位置。我们引入了块分解和历史次采样技术,以提高输入序列长时间时贝叶斯优化的可伸缩性。此外,我们开发了一种优化后算法,该算法找到了具有较小扰动大小的对抗示例。关于自然语言和蛋白质分类任务的实验表明,与先前的最新方法相比,我们的方法始终达到更高的攻击成功率,查询计数和修改率的显着降低。
translated by 谷歌翻译
从3D点云中对可遍历区域和感兴趣的对象的感知是自主导航中的关键任务之一。一辆地面车辆需要寻找可以通过车轮探索的可遍历的地形。然后,为了做出安全的导航决定,必须跟踪位于这些地形上的物体的分割。但是,过度分割和分割不足可能会对此类导航决策产生负面影响。为此,我们提出了旅行,该行程使用3D点云的图表表示可遍历的地面检测和对象聚类。为了将可穿越的接地段分割,将点云编码为图形结构,即三个格里德字段,该场将每个三个格里德视为节点。然后,通过检查连接节点的边缘的局部凸度和凹度来搜索和重新定义可遍历的区域。另一方面,我们的地上对象分割通过表示球形预测空间中的一组水平相邻的3D点作为节点和节点之间的垂直/水平关系,以使用图形结构。充分利用节点边缘结构,上面的分割可确保实时操作并减轻过度分割。通过使用模拟,城市场景和我们自己的数据集的实验,我们已经证明,根据常规指标,我们提出的遍历地面分割算法优于其他最新方法,并且我们新提出的评估指标对于评估是有意义的地上细分。我们将在https://github.com/url-kaist/travel上向公开提供代码和自己的数据集。
translated by 谷歌翻译
深度神经网络已成为现代图像识别系统的驱动力。然而,神经网络对抗对抗性攻击的脆弱性对受这些系统影响的人构成严重威胁。在本文中,我们专注于一个真实的威胁模型,中间对手恶意拦截和erturbs网页用户上传在线。这种类型的攻击可以在简单的性能下降之上提高严重的道德问题。为了防止这种攻击,我们设计了一种新的双层优化算法,该算法在对抗对抗扰动的自然图像附近找到点。CiFar-10和Imagenet的实验表明我们的方法可以有效地强制在给定的修改预算范围内的自然图像。我们还显示所提出的方法可以在共同使用随机平滑时提高鲁棒性。
translated by 谷歌翻译
Learning the distance metric between pairs of examples is of great importance for learning and visual recognition. With the remarkable success from the state of the art convolutional neural networks, recent works [1, 31] have shown promising results on discriminatively training the networks to learn semantic feature embeddings where similar examples are mapped close to each other and dissimilar examples are mapped farther apart. In this paper, we describe an algorithm for taking full advantage of the training batches in the neural network training by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. This step enables the algorithm to learn the state of the art feature embedding by optimizing a novel structured prediction objective on the lifted problem. Additionally, we collected Online Products dataset: 120k images of 23k classes of online products for metric learning. Our experiments on the CUB-200-2011 [37], CARS196 [19], and Online Products datasets demonstrate significant improvement over existing deep feature embedding methods on all experimented embedding sizes with the GoogLeNet [33] network.
translated by 谷歌翻译
最近的成功表明,可以通过文本提示来操纵图像,例如,在雨天的晴天,在雨天中被操纵到同一场景中,这是由文本输入“下雨”驱动的雨天。这些方法经常利用基于样式的图像生成器,该生成器利用多模式(文本和图像)嵌入空间。但是,我们观察到,这种文本输入通常在提供和综合丰富的语义提示时被瓶颈瓶颈,例如将大雨与雨雨区分开。为了解决这个问题,我们主张利用另一种方式,声音,在图像操纵中具有显着优势,因为它可以传达出比文本更多样化的语义提示(生动的情感或自然世界的动态表达)。在本文中,我们提出了一种新颖的方法,该方法首先使用声音扩展了图像文本接头嵌入空间,并应用了一种直接的潜在优化方法来根据音频输入(例如雨的声音)操纵给定的图像。我们的广泛实验表明,我们的声音引导的图像操纵方法在语义和视觉上比最先进的文本和声音引导的图像操纵方法产生更合理的操作结果,这通过我们的人类评估进一步证实。我们的下游任务评估还表明,我们学到的图像文本单嵌入空间有效地编码声音输入。
translated by 谷歌翻译
Stylegan最近的成功表明,预训练的Stylegan潜在空间对现实的视频生成很有用。但是,由于难以确定stylegan潜在空间的方向和幅度,因此视频中产生的运动通常在语义上没有意义。在本文中,我们提出了一个框架来通过利用多模式(声音图像文本)嵌入空间来生成现实视频。由于声音提供了场景的时间上下文,因此我们的框架学会了生成与声音一致的视频。首先,我们的声音反演模块将音频直接映射到Stylegan潜在空间中。然后,我们结合了基于夹子的多模式嵌入空间,以进一步提供视听关系。最后,提出的帧发电机学会在潜在空间中找到轨迹,该空间与相应的声音相干,并以层次结构方式生成视频。我们为声音引导的视频生成任务提供新的高分辨率景观视频数据集(视听对)。实验表明,我们的模型在视频质量方面优于最新方法。我们进一步显示了几种应用程序,包括图像和视频编辑,以验证我们方法的有效性。
translated by 谷歌翻译
The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
多模式的机器学习已被广​​泛研究以开发通用智能。最近,感知者和感知者IO出色的多模式算法对各种数据集域和任务显示了竞争结果。但是,最近的作品,感知者和感知者IO专注于异质模式,包括图像,文本和语音,并且对于图形结构化数据集的研究作品很少。图是最概括的数据集结构之一,我们可以代表其他数据集,包括图像,文本和语音作为图形结构化数据。图具有与其他数据集域(例如文本和图像)不同的邻接矩阵,并且处理拓扑信息,关系信息和规范的位置信息并不微不足道。在这项研究中,我们提供了图形感知器IO,即图形结构化数据集的感知器IO。我们将图形感知器IO的主要结构保留为感知器IO,因为除了图形结构化数据集外,感知器IO已经很好地处理了各种数据集。图形感知器IO是一种通用方法,它可以处理各种数据集,例如图形结构化数据以及文本和图像。比较图形神经网络,图感知器IO需要较低的复杂性,并且可以有效地合并局部和全局信息。我们表明,图形感知器IO显示了与图形相关任务的各种竞争结果,包括节点分类,图形分类和链接预测。
translated by 谷歌翻译
视觉惯性探测器和猛击算法广泛用于各种领域,例如服务机器人,无人机和自动驾驶汽车。大多数SLAM算法都是基于地标是静态的。但是,在现实世界中,存在各种动态对象,它们会降低姿势估计精度。此外,暂时的静态对象,在观察过程中是静态的,但在视线视线时移动,触发假循环封闭。为了克服这些问题,我们提出了一个新颖的视觉惯性大满贯框架,称为dynavins,它对动态对象和暂时静态对象都具有强大的态度。在我们的框架中,我们首先提出一个可靠的捆绑捆绑调整,该调整可以通过利用IMU预融合估计的姿势先验来拒绝动态对象的功能。然后,提出了一个密钥帧分组和基于多种假设的约束分组方法,以减少循环闭合中暂时静态对象的效果。随后,我们在包含许多动态对象的公共数据集中评估了我们的方法。最后,通过成功拒绝动态和暂时静态对象的效果,我们的测力量与其他最先进方法相比,我们的测力素具有有希望的性能得到证实。我们的代码可在https://github.com/url-kaist/dynavins上找到。
translated by 谷歌翻译
在本文中,我们提出了一个名为“星际争霸多代理挑战”的新颖基准,代理商学习执行多阶段任务并使用没有精确奖励功能的环境因素。以前的挑战(SMAC)被认为是多名强化学习的标准基准,主要涉及确保所有代理人仅通过具有明显的奖励功能的精细操纵而合作消除接近对手。另一方面,这一挑战对MARL算法的探索能力有效地学习隐式多阶段任务和环境因素以及微控制感兴趣。这项研究涵盖了进攻和防御性场景。在进攻情况下,代理商必须学会先寻找对手,然后消除他们。防御性场景要求代理使用地形特征。例如,代理需要将自己定位在保护结构后面,以使敌人更难攻击。我们研究了SMAC+下的MARL算法,并观察到最近的方法在与以前的挑战类似,但在进攻情况下表现不佳。此外,我们观察到,增强的探索方法对性能有积极影响,但无法完全解决所有情况。这项研究提出了未来研究的新方向。
translated by 谷歌翻译